Accurate whole-body multi-person pose estimation and tracking is an important yet challenging topic in computer vision. To capture the subtle actions of humans for complex behavior analysis, whole-body pose estimation including the face, body, hand and foot is essential over conventional body-only pose estimation. In this paper, we present AlphaPose, a system that can perform accurate whole-body pose estimation and tracking jointly while running in realtime. To this end, we propose several new techniques: Symmetric Integral Keypoint Regression (SIKR) for fast and fine localization, Parametric Pose Non-Maximum-Suppression (P-NMS) for eliminating redundant human detections and Pose Aware Identity Embedding for jointly pose estimation and tracking. During training, we resort to Part-Guided Proposal Generator (PGPG) and multi-domain knowledge distillation to further improve the accuracy. Our method is able to localize whole-body keypoints accurately and tracks humans simultaneously given inaccurate bounding boxes and redundant detections. We show a significant improvement over current state-of-the-art methods in both speed and accuracy on COCO-wholebody, COCO, PoseTrack, and our proposed Halpe-FullBody pose estimation dataset. Our model, source codes and dataset are made publicly available at https://github.com/MVIG-SJTU/AlphaPose.
translated by 谷歌翻译
从单眼视频中进行的3D人姿势估计最近看到了显着改善。但是,大多数最先进的方法都是基于运动学的,它容易出现具有明显伪影的物理上不可信的运动。当前基于动态的方法可以预测物理上合理的运动,但仅限于具有静态相机视图的简单场景。在这项工作中,我们介绍了D&D(从动态相机中学习人类动力学),该法律利用物理定律使用移动的摄像机从野外视频中重建3D人类运动。 D&D引入了惯性力控制(IFC),以考虑动态摄像机的惯性力来解释非惯性局部框架中的3D人运动。为了学习有限注释的接地接触,我们开发了概率接触扭矩(PCT),该概率是通过与接触概率的可区分抽样计算的,并用于生成运动。接触状态可以通过鼓励模型产生正确的动作来弱监督。此外,我们提出了一个细心的PD控制器,该控制器使用时间信息来调整目标姿势状态,以获得平稳而准确的姿势控制。我们的方法完全是基于神经的,并且在物理引擎中没有离线优化或模拟的情况下运行。大规模3D人体运动基准的实验证明了D&D的有效性,在该基于最新的运动学基于动力学和基于动力学的方法的情况下,我们表现出卓越的性能。代码可从https://github.com/jeffsjtu/dnd获得
translated by 谷歌翻译
长尾图像识别对深度学习系统提出了巨大的挑战,因为多数(头)类别与少数族裔(TAIL)类之间的失衡严重偏斜了数据驱动的深度神经网络。以前的方法从数据分布,功能空间和模型设计等的角度来解决数据失衡。从以前省略的平衡标签空间的角度来看。为了减轻从头到尾的偏见,我们通过逐步调整标签空间并将头等阶层和尾部类别分开,动态构建平衡从不平衡到促进分类,提出简洁的范式。借助灵活的数据过滤和标签空间映射,我们可以轻松地将方法嵌入大多数分类模型,尤其是脱钩的训练方法。此外,我们发现头尾类别的可分离性在具有不同电感偏见的不同特征之间各不相同。因此,我们提出的模型还提供了一种功能评估方法,并为长尾特征学习铺平了道路。广泛的实验表明,我们的方法可以在广泛使用的基准上提高不同类型的最先进的性能。代码可在https://github.com/silicx/dlsa上找到。
translated by 谷歌翻译
在分析人类运动视频时,来自现有姿势估计器的输出抖动是高度不平衡的。大多数帧只遭受轻微的傻瓜,而在那些具有遮挡或图像质量差的框架中发生了重要的困难。这种复杂的姿势通常持续存在于视频中,导致估计结果差和大型抖动的连续帧。现有的基于时间卷积网络,经常性神经网络或低通滤波器的现有姿态平滑解决方案不能处理这种长期抖动问题,而不考虑抖动视频段内的显着和持久的错误。通过上述观察,我们提出了一种新颖的即插即用细化网络,即光滑网络,可以附加到任何现有的姿势估计,以提高其时间平滑度,同时提高其每个帧精度。特别是,SmoothNet是一个简单而有效的数据驱动的全连接网络,具有大的接收领域,有效地减轻了长期抖动与不可靠的估计结果的影响。我们在十二个骨干网络上进行广泛的实验,跨越2D和3D姿势估算,身体恢复和下游任务。我们的结果表明,所提出的光滑网络始终如一地优于现有的解决方案,尤其是具有高误差和长期抖动的夹子。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
检测分配(OOD)输入对于安全部署现实世界的深度学习模型至关重要。在评估良性分布和OOD样品时,检测OOD示例的现有方法很好。然而,在本文中,我们表明,当在分发的分布和OOD输入时,现有的检测机制可以极其脆弱,其具有最小的对抗扰动,这不会改变其语义。正式地,我们广泛地研究了对共同的检测方法的强大分布检测问题,并表明最先进的OOD探测器可以通过对分布和ood投入增加小扰动来容易地欺骗。为了抵消这些威胁,我们提出了一种称为芦荟的有效算法,它通过将模型暴露于对抗性inlier和异常值示例来执行鲁棒训练。我们的方法可以灵活地结合使用,并使现有方法稳健。在共同的基准数据集上,我们表明芦荟大大提高了最新的ood检测的稳健性,对CiFar-10和46.59%的CiFar-100改善了58.4%的Auroc改善。
translated by 谷歌翻译
文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果,但在处理具有嘈杂的OCR结果或突变布局的复杂文档时,这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络(GMN),以解决这些问题,这是一种强大的多模式生成方法,没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块,GMN可以处理复杂的文档,这些文档很难序列化为顺序。此外,GMN可以容忍OCR结果中的错误,并且不需要字符级注释,这是至关重要的,因为对众多文档的细粒注释很费力,甚至需要具有专门域知识的注释者。广泛的实验表明,GMN在几个公共模具数据集上实现了新的最新性能,并超过了其他方法,尤其是在现实的场景中。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译